对于资深开发者,AI 工具反成效率减速带
2025/07/11
内容来源:测量 2025 年初 AI 工具对资深开源开发者生产力的影响
原文链接:Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
这个实验通过观察 16 名经验丰富的开源开发者(均长期贡献于知名的开源项目,GitHub 星数超过 2.2 万,代码行数超过百万)参与实验,通过设置允许或禁止使用 AI 工具完成任务的对照,来观察 AI 工具对开发者生产力的影响。
实验结果
在允许使用 AI 工具的情况下,开发者完成任务所需时间增加了 19%,这一结果与开发者的预期完全相反:
- 开发者原本认为 AI 工具可以让他们的效率提高 24%;
- 即使经历了效率下降后,他们仍认为自己效率提高了 20%。
造成效率降低的原因分析
因素 | 相关观察 |
---|---|
对 AI 工具过于乐观 | 开发者原本预期使用 AI 后任务耗时将减少 24%。即使亲身体会到了 AI 导致任务时间增加,他们事后仍估计 AI 节省了 20% 的时间。 |
开发者对代码库过于熟悉 | 开发者在自己更熟悉的任务上,被 AI 拖慢的情况更明显。开发者表示,丰富的个人经验使得 AI 很难有效地提供帮助。参与者平均有 5 年经验,且在相关代码库的贡献平均达到 1500 次提交。 |
大型复杂代码库 | 开发者报告称,在大型复杂环境中 AI 表现更差。所选代码库平均已有 10 年历史,代码规模超过 110 万行。 |
AI 生成结果可靠性低 | 开发者接受的 AI 生成代码不足 44%。大多数开发者表示需要对 AI 生成的代码做重大修改。大约 9% 的工作时间花费在审阅和修改 AI 生成的代码上。 |
隐含的代码库上下文 | 开发者表示 AI 无法有效利用隐含的知识或代码库上下文信息。 |
如何解释相关 AI 工具在标准评测及大众使用中表现出色?
以下表格比较了几种证据来源的差异:
本次 RCT 实验 | 标准化评测 (如 SWE-Bench Verified) | 大众普遍使用的反馈 | |
---|---|---|---|
任务类型 | 真实大型开源代码库中的问题修复和功能实现 | 独立、明确且易自动化评分的任务 | 多样化、范围广泛 |
成功标准 | 代码能满足真实审查需求 (风格、文档、测试等) | 算法自动评分 | 人类用户认为代码"有用"即可 |
AI 形式 | 聊天、Cursor 智能模式、自动补全 | 通常为全自动化的 AI 智能体 | 各种不同 AI 模型和工具 |
观察结果 | 在真实任务 (约 20 分钟至 4 小时) 中,AI 让人类开发者变慢 | AI 在难度极高的标准任务中表现出色 | 很多反馈 AI 对长时间任务 (>1 小时) 非常有用 |